时间差分方法
Back to Home
01. 简介
02. 迷你项目:时间差分方法 (OpenAI Gym-CliffWalkingEnv)
03. TD 预测:TD(0)
04. 实现
05. 迷你项目:时间差分方法(第 0 部分和第 1 部分)
06. TD 预测:动作值
07. TD 控制:Sarsa(0)
08. 实现
09. 迷你项目:时间差分方法(第 2 部分)
10. TD 控制:Sarsamax
11. 实现
12. 迷你项目:时间差分方法(第 3 部分)
13. TD 控制:预期 Sarsa
14. 实现
15. 迷你项目:时间差分方法(第 4 部分)
16. 分析性能
17. 总结
Back to Home
10. TD 控制:Sarsamax
TD 控制:Sarsamax
请参阅此(可选)
研究论文
,以了解 Sarsamax(或
Q
学习)会收敛的证据。
Next Concept